Average word length | # of sentences | Source |
---|---|---|
6.79 | 34 | SK 와이번스의 기록 |
8.65 | 10 | 고려대학교 출신 인물 |
8.98 | 12 | CIE 1931 색공간 |
9.02 | 14 | 사이 영 |
9.14 | 12 | 자동 초점 |
9.22 | 11 | 게티즈버그 전역 |
9.23 | 11 | 윈도 7 |
9.26 | 10 | 마스터 오브 오리온 |
9.27 | 18 | 절망희 |
9.28 | 16 | 패닉 앳 더 디스코 |
9.28 | 15 | 애슬론 |
9.28 | 11 | 절대그이 (드라마) |
9.28 | 11 | 코끼리 |
9.29 | 11 | 종묘 |
9.31 | 10 | 블레이드 러너 |
9.33 | 11 | 동물의 숲 |
9.34 | 13 | 패러모어 |
9.35 | 11 | 조 콜 |
9.38 | 10 | 리오나 루이스 |
9.40 | 17 | 2009년 태풍 |
9.40 | 10 | 얼티밋 파이팅 챔피언십 |
9.41 | 14 | 심즈 2 |
9.42 | 14 | GPGPU |
9.43 | 14 | 윈도 레지스트리 |
9.46 | 25 | 태양 에너지 |
9.46 | 17 | 12 SS기갑사단 히틀러유겐트 |
9.47 | 16 | 음식 |
9.47 | 13 | 마인탐정 네우로 |
9.47 | 10 | 조화진동자 |
9.48 | 25 | 노엘 갤러거 |
Average word length | # of sentences | Source |
---|---|---|
14.30 | 12 | 불교의 역사 |
14.11 | 12 | 일본의 전통 음악 |
13.65 | 15 | 한국 근대의 교육 |
13.30 | 10 | 고려 공민왕 |
13.19 | 12 | 서울특별시의 지역 구조 |
12.93 | 20 | 해상법 |
12.66 | 10 | 일본 천황 |
12.60 | 14 | 교원양성제도 |
12.57 | 11 | 오사카 전투 |
12.42 | 13 | 오스트리아 |
12.42 | 11 | 그나이우스 폼페이우스 마그누스 |
12.40 | 16 | 전두환 |
12.39 | 10 | 명나라의 교육 |
12.35 | 20 | 수표 |
12.33 | 14 | 세인트 세이야 |
12.32 | 44 | 경영 |
12.32 | 10 | 얀 3세 소비에스키 |
12.23 | 11 | 다이라 기요모리 |
12.22 | 10 | 상소 |
12.14 | 12 | 엘람 |
12.07 | 12 | 독일 제국 |
12.01 | 13 | 조선의 학문 |
11.94 | 15 | 하쿠레이 레이무 |
11.92 | 13 | 한국의 도교 |
11.90 | 11 | 한국의 불교 사상 |
11.87 | 11 | 스파르타 |
11.87 | 10 | 강원용 |
11.85 | 14 | 그리스-페르시아 전쟁 |
11.84 | 10 | 공업탑로터리 |
11.81 | 10 | 대학수학능력시험 |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words